
为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新
为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习,还能够结合各种行业场景知识给出专业、准确回答。
4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习,还能够结合各种行业场景知识给出专业、准确回答。
近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。
ChatGPT 拉开了大模型竞赛的序幕,Meta 似乎要后来居上了。 本周四,AI 领域迎来重大消息,Meta 正式发布了人们等待已久的开源大模型 Llama 3。
2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩,将微调技术带进千家万户。
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。
说到做到,马斯克承诺的开源版大模型 Grok 终于来了!
开源大语言模型宇宙又来了一个强劲对手。Transformer 作者参与创立的 Cohere 公司推出的大模型 Command-R 在可扩展、RAG和工具使用三个方面具有显著的优势。
前阵子官宣的大模型 Gemini 1.5,实力强劲但无人问津,被 OpenAI 的视频生成模型 Sora 抢去了风头。
在人工智能领域,OpenAI 继其 GPT-4 模型后,再次引领科技风潮,近期发布了令人瞩目的文生视频大模型 Sora。这一创新不仅再次证明了 AI 技术的无限潜力,也加速了全球对人工智能专业人才的追求。宾夕法尼亚大学工程学院顺应时代潮流,宣布推出一个全新的人工智能(AI)专业的工程学士学位课程,以培育未来将在这一领域引领变革的杰出人才。
2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。